查看原文
其他

连载(10):统计图形艺术——QQ图

easyPlot图形小组 百步优解
2024-11-28

中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。

生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。

历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。




10
QQ图 Quantile-quantile Plot



图形溯源

QQ图和PP图(Percent Plot)由印度统计学家Ramanathan Gnanadesikan和加拿大统计学家Martin Bradbury Wilk于1968年发表的论文中首次使用[1]。

QQ图,将实际数据中每个值转化为分位数(quantle),假设数据服从某一参数分布(如正态分布)而将分位数化为该期望分布上的函数值(如Z值),绘制实际数值(y轴)和理论分布函数值(x轴)的散点图,若散点位于对角线上,则提示“数据服从该参数分布”之假设成立。QQ图中,直线斜率为标准差,截距为均值。下图中左图为检查谈话者音波能量数据是否服从正态分布的QQ图,显然不服从正态分布。

类似,PP图,通过绘制实际数据的累积比与期望分布的理论累积概率之间散点图,若散点位于对角线上,则提示检验实际数据服从(或近似服从)目标分布;或绘制同理,亦可绘制两批数据的累积比的散点图,以观察两批数据是否服从同分布。右图为谈话者1和谈话者8对同个词语的音波能量累积比例的PP图,同样,这两位谈话者音波能量的分布明显不同(图 10.1)

图10.1历史上首个QQ图和PP图






应用场景
  1. 检验数据是否服从某种特定的参数分布。

  2. 比较两类数据的分布是否相同。





应用示例


01常规QQ图QQ Plot





例1: 本例选取500名江苏省高中男生的体检BMI(body mass index)数据,将其标化后用QQ图来检验其是否服从正态分布(图 10.2)。



可观察到图A实际数据点并不呈直线分布,这说明标化后的BMI数据和正态分布是有所差异的,A图左边有一部分点偏离在直线上方,说明实际分位数大于理论分位数,从密度曲线的角度来说,实际数据的分布更偏向右,理论分布曲线左边向左伸得更远






图10.2:江苏省500名高中男生BMI QQ图



例2:本例将比较高中男生女生的BMI分布是否相同(图 10.3)



QQ图还可用于比较两种数据的分布是否相同,从QQ图和密度分布图中均可能看出高中男生女生的BMI分不同。





图10.3:高中男生女生BMI指数QQ图




GWAS研究中,常对全基因组上百万遗传变异的关联性检验结果,绘制QQ图,以观察是否存在人群分层现象。引入λ参数作为膨胀系数,为所有遗传变异关联性分析的卡方统计量(和P值有对应关系)的中位数和理论卡方分布的中位数之比。若λ显著大于1,说明可能存在人群分层或其他混杂因素,导致P值膨胀,进而导致假阳性率过高


例3:GWAS研究中QQ图的应用



以一项中国人群胰腺癌的GWAS研究为例[2],该研究纳入了981名基于981名胰腺癌病例与1991名对照。666141个SNP位点的关联性分析的P值用于绘制QQ图(λ=1.059),提示无人群分层,右上角“上翘”的点为潜在关联性位点(图 10.4)





图10.4:中国人群胰腺癌GWAS研究QQ图












03PP图Probability-Probability Plot





例:续上例


从图中可见,散点明显偏离中线,提示高中男生的BMI不服从正态分布(图 10.5)。


注:图形只是初步展示数据特征,还需统计学检验才可确定数据特征。





图10.5:江苏省高中男生BMI的PP图











04对称性诊断Symmetry Plot





对称图用于检验某一数据是否关于中位数对称,即检验该数据是否服从对称分布,若数据散点偏离y=x直线,则可认为数据分布并不对称。


例:本例对500名高中男生的BMI指数进行检验,如A图所示,大部分数据位于斜线上方,说明数据并不服从对称分布,B图直方图也可反映该数据为右偏态分布(图 10.6)





图10.6:高中生BMI指数对称性诊断图











05正态化函数搜索图Ladder of Powers for Normal Distribution,histograms or QQ Plots





John Tukey于1977年的著作《Exploratory Data Analysis》[3]提出了幂阶(ladder of power)概念,通过对变量进行降幂、升幂、对数变化,通过绘制散点图以观察各种变换对数据间线性关系的影响(图 10.7),其目的是将非线性关系转变为线性关系。





图10.7:Tukey ladder of powers



gladder展示的是通过幂阶将变量转化为正态分布数据的直方图。qqladder展示的是通过幂阶将变量转化为正态分布数据的QQ图


网络如图所示(图 10.8),通过反函数(inverse)转化后的数据近似服从正态分布,效果更佳。








图10.8:高中生BMI分布正态化的幂阶搜索
















注意事项:
QQ图和PP图的用途完全相同,只是展示方式存在差异。



以上为QQ图在医学研究中的常用场景示例,尚有更多扩展。篇幅有限,欢迎联系获取源码。
参考文献:
  1. Wilk MB, Gnanadesikan R. Probability plotting methods for the analysis for the analysis of data. Biometrika. 1968;55(1):1–7.

  2. Wu C, Miao X, Huang L, Che X, Jiang G, Yu D, et al. Genome-wide association study identifies five loci associated with susceptibility to pancreatic cancer in chinese populations. Nature genetics. 2012;44(1):62–6.

  3. Tukey JW. Exploratory data analysis. Vol. 2. Reading, MA; 1977.







写作:魏永越*,张隆垚

排版:李   颖

审阅:陈   峰


关注公众号,联系获取源码


欢迎供稿 | 敬请斧正

easyPlot小组 (easyplot@126.com)

责任作者 (weiyongyue@126.com)


Powered by 



END




往期回顾BREAK AWAY


连载(1):统计图形艺术——条形图


连载(2):统计图形艺术——线图


连载(3):统计图形艺术——饼图


连载(4):统计图形艺术——直方图


连载(5):统计图形艺术——点图


连载(6):统计图形艺术——箱线图


连载(7):统计图形艺术——散点图


连载(8):统计图形艺术——热图


连载(9):统计图形艺术——三元图


统计图形艺术——“图形”英文词意辨析


继续滑动看下一个
百步优解
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存